在天下雜誌往站上看到洪蘭教授的一篇「讀一本課本是不夠的」,作者嘗試從神經科學的角度,來詮釋為什麼目前台灣過度強調「精讀少數文章」的語言教育方式是行不通的。
其實不只是從「理解人類的語言能力」的觀點出發能得到這樣的結論,在工程上「讓電腦來處理人類語言」,也發現相似的情況。
傳統上,科學界對於「規則」的找尋有種特別的熱衷,學語言要有「文法」,任何領域的知識都脫不了「xx理論」,人工智能的設計也主要是將專家的知識歸納成一條一條的規則,然後利用邏輯運算來進行判斷。大約在上個世紀90年代,隨著基礎科學的突破和哲學思潮的演變,「機率」的想法逐漸被科學家們接受,比方說目前各種「辨識」技術所建基於之的Statistical Learning Theory ,就是讓電腦「從資料中去學習規則」,而非傳統的「執行專家所定意出的規則」。
這幾年暴紅的 Google,則是把統計的應用推向更極端:一切都在資料和統計之中,讓我們連規則這件事都給忘了吧。
當代的自然語言處理(Natural Language Processing, NLP)當中,N-grams應當算是最重要的觀念之一。這個觀點把語言當作是一連串基本元素(字母或是字)組成的序列,然後去分析各種序列發生的機率,而最明顯講這個觀念發揚光大的,就是 Google 的各種應用:舉凡搜尋、翻譯、搜尋修正建議....等等,廣義來說都是從 N-grams 的觀點出發的。
Google 建立在 N-grams 上的應用,有一個很重要的限制:用來學習的資料量一定要大。Schmidt 某次在介紹 Google Translate 演講上提到,Google Translate 其實沒有包含多少傳統語言學的元素,完全就是靠 collocation 的統計;一開始沒有人相信這樣行得通,但是當用來統計的資料量到達 10 的 6 到 9 次方時,整個系統突然就可以運作,甚至運作的比基於各種文法規則的翻譯還要好。
技術的部份說到這裡就該打住了,讓我們回到主題,「閱讀」這件事情上。其實說這些單純只是為了呼應洪蘭教授所說的:人應該廣泛的閱讀,才能更精準的掌握語言的使用。前人精闢的解析與見解固然值得咀嚼,但是擴充形成自己見解的資料量似乎是更務實的作法。畢竟書是死的,人是活的,而且是活在一個不斷變化的語言環境裡,不斷有驚奇發生的世界當中。Be adaptive.
沒有留言:
張貼留言